Java代码实现，截取URL中的一级域名

云服之家云服务器资讯 2025-05-15 12:55:37 1.2K+

在Web开发中，经常需要处理URL，并提取其中的关键信息，如一级域名，一级域名是URL中第一个点（"."）之前的部分，在"https://www.example.com/path/to/resource"中，"example"就是一级域名,本文将介绍如何使用Java代码来截取URL中的一级域名。

云服之家，国内最专业的云服务器虚拟主机域名商家信息平台

使用正则表达式提取一级域名

Java中的String类提供了丰富的字符串处理方法，结合正则表达式，可以很方便地提取URL中的一级域名,以下是一个简单的示例代码：

import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ExtractTopLevelDomain {
    public static void main(String[] args) {
        String url = "https://www.example.co.uk/path/to/resource";
        String topLevelDomain = getTopLevelDomain(url);
        System.out.println("The top-level domain is: " + topLevelDomain);
    }
    public static String getTopLevelDomain(String url) {
        // 正则表达式匹配模式：^(?:https?:\/\/)?(?:[^\./]+\.)?([^\./]+)$
        // 第一个分组是可选的协议和子域名部分，第二个分组是一级域名部分
        Pattern pattern = Pattern.compile("^(?:https?:\/\/)?(?:[^\./]+\.)?([^\./]+)$");
        Matcher matcher = pattern.matcher(url);
        if (matcher.matches()) {
            return matcher.group(2); // 返回一级域名部分
        } else {
            throw new IllegalArgumentException("Invalid URL format");
        }
    }
}

这段代码定义了一个getTopLevelDomain方法，该方法使用正则表达式来匹配URL，并提取出其中的一级域名，在main方法中，我们测试了该方法,并打印出提取结果。

考虑不同URL格式和异常情况

虽然上述方法能够处理大多数常见的URL格式，但在实际应用中，还需要考虑一些特殊情况，如：没有子域名的URL、协议无关的URL、以及非法格式的URL等,以下是一个更加健壮的实现：

import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ExtractTopLevelDomainEnhanced {
    public static void main(String[] args) {
        String url1 = "https://www.example.com/path/to/resource";
        String url2 = "example.com";
        String url3 = "http://sub.example.co.uk/path/to/resource";
        String url4 = "invalid_url"; // 非法URL格式
        try {
            System.out.println("The top-level domain of " + url1 + " is: " + getTopLevelDomain(url1));
            System.out.println("The top-level domain of " + url2 + " is: " + getTopLevelDomain(url2));
            System.out.println("The top-level domain of " + url3 + " is: " + getTopLevelDomain(url3));
        } catch (IllegalArgumentException e) {
            System.out.println(e.getMessage()); // 打印错误信息
        }
    }
    public static String getTopLevelDomain(String url) {
        try {
            // 使用URL类解析URL，获取主机名部分（已经去除了协议和可能的子域名）
            URL parsedUrl = new URL(url);
            String host = parsedUrl.getHost(); // 获取主机名（可能包含子域名）
            // 使用正则表达式提取一级域名部分（最后一个点之后的部分）
            Pattern pattern = Pattern.compile("(\\.[a-z]{2,})$", Pattern.CASE_INSENSITIVE); // 忽略大小写匹配后缀（如 .com, .co.uk 等）
            Matcher matcher = pattern.matcher(host);
            if (matcher.find()) {
                return host.substring(0, host.length() - matcher.end()); // 返回一级域名部分（不包含后缀点）
            } else { // 如果没有找到点作为后缀的情况（可能是没有子域名的顶级域名）直接返回主机名（可能为空） 
                return host; 
            } 
        } catch (MalformedURLException e) { // 如果URL格式非法，抛出异常并提示用户 
            throw new IllegalArgumentException("Invalid URL format", e); 
        } 
    } 
}

在这个增强版的实现中，我们使用了java.net.URL类来解析输入的URL，并获取主机名部分，使用正则表达式来提取一级域名，这种方法更加健壮，能够处理各种复杂的URL格式和异常情况，如果输入的URL格式非法，会抛出IllegalArgumentException异常并提示用户。通过结合使用Java的字符串处理方法和正则表达式，可以很方便地实现截取URL中的一级域名的功能，在实际应用中,根据具体需求进行适当调整和扩展即可满足各种场景的需求。

标签： Java代码实现截取URL 一级域名